Benchmarking Steps 基準測試步驟

要進行 UX 基準測試,首先需要建立基準測試流程,分為三步:

1 選擇需要衡量的內容(即確定核心任務或目標)

2 選擇衡量的方法(如問卷、分析或可用性測試)

3 收集第一次測量資料(作為初始基線)

基準測試是一種持續性的實踐,一旦團隊確定了要衡量的指標及其方法,就應長期跟蹤這些指標。

後續步驟 4–7 是一個可以重複的迴圈,用於持續改進使用者體驗:

4 重新設計產品

5 再次收集測量資料

6 解讀結果

7 計算投資回報率ROI(可選)

UX Benchmarking Process

前三步啟動測量,後四步一直迴圈用

Step 1: Choose What to Measure 選擇測量內容

首先明確你要做基準測試的產品或服務,並清楚界定你將關注的使用者群體。找出對使用者最關鍵的任務(看使用者最在意、最常用的功能是什麼)

我們可以用定量資料衡量使用者體驗的多個方面,例如:

Google HEART 框架

類別含義示例指標
滿意度(Happiness)使用者對體驗的態度滿意度評分、易用性評分、淨推薦值(NPS)
參與度(Engagement)使用者活躍程度平均任務時間、功能使用率、轉化率
採用率(Adoption)產品或功能首次使用情況新註冊、訪問次數、銷售量
留存率(Retention)使用者長期使用情況回訪使用者、流失率、續訂率
任務效率(Task effectiveness & efficiency)任務成功率與效率錯誤數、成功率、任務用時

Kerrin McLaughlin, Experience Designer and Researcher at ExpandTheRoom
“很多客戶喜歡看頁面瀏覽數這類淺層資料,而這些資料並不足以深入反映 UX 的真實影響。很多客戶更習慣使用傳統市場營銷中的指標,而不是專注於使用者體驗本身。我們與客戶合作時會花時間問他們:“你們的目標是什麼?成功的標準是什麼?客戶往往給出一些模糊、無法量化的回答,因此我們的任務是幫助他們將目標轉化為可衡量的內容”

Step 2: Choose How to Measure 選擇測量方法

在 UX 基準測試中,有三種使用者研究方法特別常見且有效:

• 問卷調查(Surveys):獲取使用者自我報告的主觀感受資料,如滿意度、易用性等。

• 分析資料(Analytics):基於系統行為記錄,分析使用者點選路徑、頁面停留時長等行為表現。

• 定量可用性測試(Quantitative usability testing):透過任務完成率、用時、錯誤率等指標,評估產品的可用性。

三種方法各有側重點,前兩者更偏主觀反饋與行為追蹤,後一者更強調可量化的操作表現。除了上面三種方法,還可以從客服、樹狀測試、市場反饋中找到衡量標準。

想知道滿意不滿意?只能發問卷,別的方法不行。

如果你希望收集使用者滿意度(User Satisfaction)資料,那麼就必須使用問卷調查。因為像“滿意度”這樣的資料,無法透過分析工具或操作測試得出。

Tara Bassili, AD of UX Research at LoyaltyOne
我們對網站進行了全面改版,因此想獲得一組定量資料來對比新舊版本。我們認為像‘任務用時’和‘滿意度評分’這樣的指標非常重要,因此選擇了定量可用性測試,而不是純粹的資料分析工具。

理想情況下,應該將主觀反饋法(如問卷)行為觀察法(如定量測試或資料分析)搭配使用,以獲得對使用者體驗的全面理解。這樣可以同時掌握“使用者怎麼想”與“使用者怎麼做”。

Example: HelloFresh 案例

HelloFresh 團隊測了幾個關鍵任務,比如“找菜譜”,看使用者花多少時間、成功沒有、感覺難不難,還讓他們打分評分,既測操作,也問感覺:

Step 3: Collect the First Measurement 收集第一次測量資料

第一次測量就像“打底分”,之後你改設計了,再拿來對比有沒有變好。

在收集第一批資料時,要考慮外部影響因素可能對結果產生干擾。比如你上線新設計正好趕上打折季,這可能會影響轉化率,而問題並不在於設計。單次測量的資料往往缺乏意義,即使你剛啟動基準測試專案、沒有歷史資料可以參考,仍然可以透過競品對比、行業標準或利益相關者設定的目標來找到對照點。

Example: HelloFresh 案例

HelloFresh 團隊可以參考以下三種方式來為他們的測量結果找到對比物件:

Step 4: Redesign the Product 重新設計產品

這步就是重做設計,後面的資料會告訴你改得有沒有用。

Step 5: Collect Another Measurement 再測一次

設計一改完別急著測,使用者往往排斥改變,因此如果改動較大,最好給使用者一些適應期再測量。例如:每天使用的產品,等 2–3 周;使用頻率低的產品,等 1 個月甚至更久

Step 6: Interpret Findings 解讀資料

如何解讀資料,完全取決於你的產品型別和所選的測量指標。

比如:一個費用報銷 App,希望“時間越短越好”;但一個休閒遊戲,反而希望“使用者玩得越久越好”

Confounding Variables 混雜變數

UX 測試應是可控實驗,即唯一變化因素是“設計”,其他都保持不變,這樣才能確保資料變化歸因於設計本身。但現實中很難完全控制變數。舉例:

Ana Victoria del Pino Pérez, Love to Know Media
“疫情來了,大家都宅家用網方式變了,原來想測的東西都被打亂了。”

Statistical Significance 統計顯著性

不應直接根據測量結果下結論,因為你測試時使用的使用者樣本往往遠小於整體使用者群體。

因此,需要使用統計學方法(如 p 值檢驗等)來判斷資料之間的差異是否是真實存在的,而非偶然波動造成的。如果差異“統計上顯著”,就能說這不是撞巧,是設計真的有影響。

如果新設計確實比舊設計表現更好,你更容易檢測到差異,前提是樣本量要足夠大。因此,滿足最小樣本量(minimum sample size)非常關鍵。報告中提到,有些案例被拒是因為只用了 5 位參與者。最好用 20 到 40 個使用者來測才有說服力。

以下是 HelloFresh 團隊對“在 app 中尋找最近配送菜譜”任務的定量可用性測試結果(注:SUS = System Usability Scale,系統可用性量表,是 UX 領域常用的使用者滿意度評價標準。)

指標初始設計重設計後
平均任務用時(秒)2814
平均任務成功率25%100%
平均 SUS 評分(滿分 100)7590

Reporting Benchmarking Results 報告基準測試結果

彙報定量資料的常見錯誤是"只提供資料而不解釋"。正確做法:將資料融入故事中,明確觀點,用資料支撐論點。

Nora Fiore, UX Writer at Marketade:
資料的關鍵是講故事:你不能只是丟擲一堆數字,你需要把這些數字串成一條邏輯清晰的故事線。”要回答‘我們為啥做這事?怎麼做的?結果好不好?’而不是一堆沒人看的表格。

Task 3 的成功率只有 26%,遠低於其他任務,設計上得重點最佳化它。

Aaron Powers, Director of Design Research at athenahealth
別光給資料,也要說清楚“接下來要幹嘛”。資料好不好用,關鍵看能不能讓人知道下一步怎麼做。我們現在就做個系統幫大家一眼看出“跟我有關的”資料。

See the upside 要學會從結果中發現積極意義

新設計表現不佳可能令人失望,但及早發現問題總比上線後遇到災難好。不良資料實際上是調整方向的重要訊號。

Funbi Makinde, UX Researcher at Shopify
有些設計改動會顯著影響指標,有些不會。定量研究能幫助我們釐清哪些問題需要優先解決,而不是被感受和假設牽著走。

Aaron Powers, Director of Design Research at athenahealth
“有個團隊上線了新功能,結果得分比之前更低。於是他們回頭看調查資料和使用者反饋,意識到設計失敗了。”“在下一版中,他們把得分拉回原水平,在第三版中甚至超過了原來。這才是真正的資料驅動成功案例.

如果結果不錯,就別客氣,拿去給老闆看,這時你可以選擇進一步計算 UX 的投資回報(ROI),以便更有力地向組織和利益相關方展示價值。

Step 7: Calculate ROI 計算投資回報率

基準測試可以幫助你追蹤成效並量化你工作的價值。一個有力的方式是:將 UX 指標與組織目標掛鉤,並計算 ROI(投資回報率)。這個過程意味著將 UX 指標與業務 KPI(關鍵績效指標)如利潤、成本、員工效率或客戶滿意度直接關聯。

雖然計算 ROI 並不是大多數 UX 從業者的常規做法,但在某些情況下,如果你難以用指標直接證明設計價值,ROI 會是一個強有力的說服工具。